Piano.cat
    • Categories
    • Recent
    • Tags
    • Popular
    • World
    • Users
    • Groups
    • Register
    • Login
    1. Principal
    2. Uncategorized
    3. Bé, dissabte nit fent hores extres.
    This topic has been deleted. Only users with topic management privileges can see it.
    • moribundo@hispagatos.spaceM moribundo@hispagatos.space

      Bé, dissabte nit fent hores extres.

      moribundo@hispagatos.spaceM moribundo@hispagatos.space

      @spla Està bé , però penso que no hi ha gaire a fer. Aquests escrapetjos es fan a diari amb OSINT. Ja sabíem que estem en una xarxa de fonts obertes, i tot i que es pugui minimitzar, aconseguiran moltes dades.

        0
        Offline moribundo@hispagatos.space •
        , last edited by
      • mgc@mastodont.catM mgc@mastodont.cat
        mgc@mastodont.catM mgc@mastodont.cat

        @Caelumtangi @spla estic amb la Sara: gràcies per la feina!
        I, ja posats, no sé si l'html bomb que diu en @Rierol pot funcionar...

          0
          Offline mgc@mastodont.cat •
          , last edited by
        • spla@mastodont.catS spla@mastodont.cat
          spla@mastodont.catS spla@mastodont.cat

          @moribundo aquesta opció funciona:

          Link Preview Image
          spla (@spla@mastodont.cat)

          Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

          favicon

          mastodont.cat, cultura catalana. (mastodont.cat)

            0
            Offline spla@mastodont.cat •
            , last edited by
          • spla@mastodont.catS spla@mastodont.cat
            spla@mastodont.catS spla@mastodont.cat

            @Rierol aquesta opció funciona:

            Link Preview Image
            spla (@spla@mastodont.cat)

            Adjunt: 2 imatges Bon dia! en relació a això: https://mastodont.cat/@spla/115000794647508332 i veient que hi ha robots que no respecten robots.txt, he pujat un esglaó en la guerra contra els bots IA o bots en general que obtenen continguts sense permís. He modificat la configuració de nginx per a que tots els bots que hi he afegit no rebin res de mastodont.cat gràcies al codi http 444 que els hi retorna aquesta configuració. Per exemple, Amazonbot no para de demanar enllaços, ara no rebrà res més que el que es veu en la segona imatge.

            favicon

            mastodont.cat, cultura catalana. (mastodont.cat)

              0
              Offline spla@mastodont.cat •
              , last edited by
            • moribundo@hispagatos.spaceM moribundo@hispagatos.space
              moribundo@hispagatos.spaceM moribundo@hispagatos.space

              @spla però es una bogeria. Passarà com YT i el bloqueig dels anuncis, una carrera de fer i desfer, d'estar atent tots els dies a bots nous o formes diferents de fer-ho, perquè aquesta gentussa està disposada a lo que sigui per tal de que la seva IA sigui la millor.
              Les IAs son molt disruptives i penso que hi ha d'haver-hi un canvi de concepte global i no només fer pegats.
              Pero fins que aquest moment arribi, suposo que si, que s'ha de fer l'imposible

                0
                Offline moribundo@hispagatos.space •
                , last edited by
              • spla@mastodont.catS spla@mastodont.cat
                spla@mastodont.catS spla@mastodont.cat

                @moribundo sí, poden canviar de user-agent si és que no ho estan fent ja ara o fer altres bots nous...és una bogeria 😅
                Retornar-lis un 444 no els hi dona pistes, només veuen que la connexió s'ha tallat.

                  0
                  Offline spla@mastodont.cat •
                  , last edited by spla@mastodont.cat
                • spla@mastodont.catS spla@mastodont.cat
                  spla@mastodont.catS spla@mastodont.cat

                  @Caelumtangi de res! 😃

                    0
                    Offline spla@mastodont.cat •
                    , last edited by
                  • spla@mastodont.catS spla@mastodont.cat
                    spla@mastodont.catS spla@mastodont.cat

                    @mgc de res! 😃 @Caelumtangi @Rierol

                      0
                      Offline spla@mastodont.cat •
                      , last edited by
                    • robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat
                      robertgarrigos@mastodont.catR robertgarrigos@mastodont.cat

                      @spla gràcies. L'aprofitaré pel meu servidor

                        0
                        Offline robertgarrigos@mastodont.cat •
                        , last edited by
                      • spla@mastodont.catS spla@mastodont.cat
                        spla@mastodont.catS spla@mastodont.cat

                        @robertgarrigos de res! no és segur que respectin robots.txt, per exemple, Amazonbot no ho fa.
                        Aquesta configuració per nginx els hi posa més difícil:

                        spla (@spla@mastodont.cat)

                        La configuració de nginx per a lluitar contra els bots d'IA i altres "scrappers", l'he obtingut d'aquí: https://github.com/kurren/ai-bots-crawlers #mastoadmin

                        favicon

                        mastodont.cat, cultura catalana. (mastodont.cat)

                          0
                          Offline spla@mastodont.cat •
                          , last edited by
                        Loading More Posts
                        • Oldest to Newest
                        • Newest to Oldest
                        • Most Votes
                        Reply
                        • Reply as topic
                        Log in to reply
                        • First post
                          Last post